大型语言模型(LLM)广泛应用于下游域。但是,用于高风险领域任务(例如金融投资和法律质量保证)的llms通常会在没有推理和解释的情况下生成简短的答案。这限制了用户根据其重音做出决策的保证。虽然原始的婴儿床表现出希望,但它在制作过程中缺乏自我纠正机制。这项工作引入了域o 1 s,可以通过监督的细调和树搜索来增强LLMS在域任务上的推理。我们构建了COT-Stock-2K和COT-Legal-2K数据集,以根据其判断力激活特定于域的原因步骤的微调模型。补充 - 我们提出选择性树探索,以自发探索解决方案空间和样品最佳推理路径以提高影响。我们还引入了证明得分,这是一种用于评估域模型的解释性的新指标,并以更丰富的评估尺寸补充了传统的授权指标。关于库存建议的广泛实验和质量保证任务的法律原因证明了域o 1 s的领先性能和解释性。我们的代码可在https:// anonymous.4open上找到。Science/r/domaino1s-006f/。
主要关键词
![arxiv:2501.14431v1 [CS.CL] 2025年1月24日PDF文件第1页](/bimg/b/bf230cb7ee17e6731b418d3ae0486cfdab237b8b.webp)
![arxiv:2501.14431v1 [CS.CL] 2025年1月24日PDF文件第2页](/bimg/1/1e3d3d99fc8a8dae6817cb5691fb6b30c327d533.webp)
![arxiv:2501.14431v1 [CS.CL] 2025年1月24日PDF文件第3页](/bimg/a/adac2e0f696eb4fa228f1a43d932f56617decdc7.webp)
![arxiv:2501.14431v1 [CS.CL] 2025年1月24日PDF文件第4页](/bimg/c/c788dec6599c6bb4bf53e038cd128dea8005d08d.webp)
![arxiv:2501.14431v1 [CS.CL] 2025年1月24日PDF文件第5页](/bimg/8/8b3a1307d2454618872a97016180c892a7f088b6.webp)
